2.5 配对实验

配对实验 (matched-pairs experiment, MPE) 是 SRE 的最极端的版本. 每个分层中, 只有一个实验单元和一个对照单元.

1 实验设计和潜在结果

考虑一个 $2 n$ 单元的实验. 如果我们的协变量是用于预测结果的, 我们可以把实验单元基于协变量的相似度进行配对.

如果是标量, 直接排序后两两组合;
如果是向量, 定义单元之间的距离然后进行排序, 比如可以使用贪心算法.

用 $(i, j)$ 表示配对 $i$ 中的单元 $j$ , 这里 $i = 1, \dots, n$ , $j = 1, 2$ . 则它有潜在结果 $Y_{i j} (1)$ , $Y_{i j} (0)$ . 在每个配对里面, 我们随机指派一个单元接受实验, 一个接受控制. 记 $Z_{i} = {\begin{aligned} 1, 第一个单元接受实验, \\ 2, 第二个单元接受实验. \end{aligned}$
我们可以正式定义 MPE:

MPE

定义 $\begin{matrix} (1.1) & (Z_{i})_{i = 1}^{n} \overset{i . i . d}{\sim} Bernoulli (\frac{1}{2}) . \end{matrix}$ 则配对 $i$ 的观测结果是 $Y_{i 1} = Z_{i} Y_{i 1} (1) + (1 - Z_{i}) Y_{i 1} (0) = {\begin{aligned} Y_{i 1} (1), Z_{i} = 1, \\ Y_{i 1} (0), Z_{i} = 0, \end{aligned}$ 和 $Y_{i 2} = Z_{i} Y_{i 2} (0) + (1 - Z_{i}) Y_{i 2} (1) = {\begin{aligned} Y_{i 2} (0), Z_{i} = 1, \\ Y_{i 2} (1), Z_{i} = 0. \end{aligned}$ 最后观测到的结果为 $(Z_{i}, Y_{i 1}, Y_{i 2})_{i = 1}^{n}$ .

2 FRT

类似之前, 我们依然用 FRT 检验 $H_{0 F} : Y_{i j} (1) = Y_{i j} (0), \forall i = 1, \dots, n, j = 1, 2.$
这里我们要模拟 $(Z_{1}, \dots, Z_{n})$ 的分布 (1.1). 则 $\begin{aligned} {\hat{τ}}_{i} & = 实验组结果 - 控制组结果 \\ = (2 Z_{i} - 1) (Y_{i 1} - Y_{i 2}) = S_{i} (Y_{i 1} - Y_{i 2}), \end{aligned}$ 这里 $S_{i} = 2 Z_{i} - 1$ 是独立同分布的 $0$ 均值、 $1$ 方差的变量. 在 FRT 中我们丢弃那些 ${\hat{τ}}_{i} = 0$ 的配对, 因为它们不对随机化分布做贡献.

配对 t 统计量

配对内差值的均值是 $\hat{τ} = \frac{1}{n} \sum_{i = 1}^{n} {\hat{τ}}_{i} .$ 在 $H_{0 F}$ 下, $E (\hat{τ}) = 0$ , 且 $\begin{aligned} Var (\hat{τ}) = \frac{1}{n^{2}} \sum_{i = 1}^{n} Var ({\hat{τ}}_{i}) \\ = & \frac{1}{n^{2}} \sum_{i = 1}^{n} Var (S_{i}) (Y_{i 1} - Y_{i 2})^{2} = \frac{1}{n^{2}} \sum_{i = 1}^{n} {\hat{τ}}_{i}^{2} . \end{aligned}$ 基于 CLT, 我们有正态逼近 $\frac{\hat{τ}}{\sqrt{n^{- 2} \sum_{i = 1}^{n} {\hat{τ}}_{i}^{2}}} \overset{d}{\to} N (0, 1) .$ 我们可以借此构造一个渐近意义下的检验: $t_{pair} = \frac{\hat{τ}}{\sqrt{{n (n - 1)}^{- 1} \sum_{i = 1}^{n} ({\hat{τ}}_{i} - \hat{τ})^{2}}},$ 这在 $H_{0 F}$ 下有大 $n$ 和小 $\hat{τ}$ 时几乎就等于 $\hat{τ}$ .

在传统统计学中, 当 ${\hat{τ}}_{i} \overset{i . i . d}{\sim} N (0, σ^{2})$ , 我们可以证明 $t_{pair} \sim t (n - 1)$ , 也即 $t_{pair}$ 的实际自由度是 $n - 1$ , 这很接近 $N (0, 1)$ .

Wilcoxon 符号秩统计量

基于 $(| {\hat{τ}}_{1} |, \dots, | {\hat{τ}}_{n} |)$ 的排序 $(R_{1}, \dots, R_{n})$ , 我们可以定义 $W = \sum_{i = 1}^{n} 1 {{\hat{τ}}_{i} > 0} R_{i} .$ 在 $H_{0 F}$ 下, $| {\hat{τ}}_{i} |, R_{i}$ 固定, 因此 $E (W) = \frac{1}{2} \sum_{i = 1}^{n} R_{i} = \frac{1}{2} \sum_{i = 1}^{n} i = \frac{n (n + 1)}{4},$ 以及 $Var (W) = \frac{1}{4} \sum_{i = 1}^{n} R_{i}^{2} = \frac{n (n + 1) (2 n + 1)}{24} .$ 根据 CLT, $\frac{W - \frac{n (n + 1)}{4}}{\sqrt{\frac{n (n + 1) (2 n + 1)}{24}}} \overset{d}{\to} N (0, 1) .$

Kolmogorov-Smirnov 型统计量

$H_{0 F}$ 下 $(| {\hat{τ}}_{1} |, \dots, | {\hat{τ}}_{n} |)$ 固定但是它们的符号随机, 因此 $({\hat{τ}}_{1}, \dots, {\hat{τ}}_{n})$ 和 $- ({\hat{τ}}_{1}, \dots, {\hat{τ}}_{n})$ 应该有相同的分布. 记 $\hat{F} (t) = \frac{1}{n} \sum_{i = 1}^{n} 1 {{\hat{τ}}_{i} \leq t}$ 是 $({\hat{τ}}_{1}, \dots, {\hat{τ}}_{n})$ 的经验分布. 记 $\hat{F} (- t -)$ 为 $\hat{F} (\cdot)$ 在 $- t$ 的左极限, 则 $1 - \hat{F} (- t -) = \frac{1}{n} \sum_{i = 1}^{n} 1 {- {\hat{τ}}_{i} \leq t}$ 是 $- ({\hat{τ}}_{1}, \dots, {\hat{τ}}_{n})$ 的经验分布. 定义统计量 $D = max_{t} | \hat{F} (t) + \hat{F} (- t -) - 1 | .$

符号统计量

只考虑符号 $Δ = \sum_{i = 1}^{n} 1 {{\hat{τ}}_{i} > 0} .$ 在 $H_{0 F}$ 下 $1 {{\hat{τ}}_{i} > 0} \overset{i . i . d}{\sim} Bernoulli (\frac{1}{2}), Δ \sim Binomial (n, \frac{1}{2}) .$ 在 CLT 下 $\frac{Δ - \frac{n}{2}}{\sqrt{\frac{n}{4}}} \overset{d}{\to} N (0, 1) .$

二元结果的 McNemar 统计量

如果结果是二元的 ( $0, 1$ ), 也即符合以下表格

	控制组结果 1	控制组结果 0
实验组结果 1	$m_{11}$	$m_{10}$
实验组结果 0	$m_{01}$	$m_{00}$

则 $m_{10} \sim Binomial (m_{10} + m_{01}, \frac{1}{2}) .$ 在 CLT 下 $\frac{m_{10} - \frac{m_{10} + m_{01}}{2}}{\sqrt{\frac{m_{10} + m_{01}}{4}}} = \frac{m_{10} - m_{01}}{\sqrt{m_{10} + m_{01}}} \overset{d}{\to} N (0, 1) .$

3 Neyman 推断

定理 1

在 MPE 下, $\hat{V}$ 是 $\hat{τ}$ 的保守估计: $E (\hat{V}) - Var (\hat{τ}) = \frac{1}{n (n - 1)} \sum_{i = 1}^{n} (τ_{i} - τ)^{2} \geq 0.$ 如果 $τ_{i}$ 都相同, 则 $E (\hat{V}) = Var (\hat{τ})$ .

定理说明, 在 MPE 下, $\hat{V}$ 是一个保守的方差估计量, 且在各个配对的平均因果效应相同的情况下是无偏估计. 我们可以看到 $\hat{V}$ 依赖配对间的方差, $Var (\hat{τ})$ 依赖配对内的方差.

证明

回忆恒等式 $\sum_{i = 1}^{n} (a_{i} - \overset{―}{a})^{2} = \sum_{i = 1}^{n} a_{i}^{2} - n {\overset{―}{a}}^{2}$ , 它得到 $Var (W) = E (W^{2}) - (E W)^{2}$ . 因此 $\begin{aligned} n (n - 1) E (\hat{V}) & = E {\sum_{i = 1}^{n} ({\hat{τ}}_{i} - \hat{τ})^{2}} = E (\sum_{i = 1}^{n} {\hat{τ}}_{i}^{2} - n {\hat{τ}}^{2}) \\ = \sum_{i = 1}^{n} {Var ({\hat{τ}}_{i}) + τ_{i}^{2}} - n {Var (\hat{τ}) + τ^{2}} \\ = \sum_{i = 1}^{n} Var ({\hat{τ}}_{i}) - n Var (\hat{τ}) + \sum_{i = 1}^{n} τ_{i}^{2} - n τ^{2} \\ = n^{2} Var (\hat{τ}) - n Var (\hat{τ}) + \sum_{i = 1}^{n} (τ_{i} - τ)^{2} . \end{aligned}$ 因此 $E (\hat{V}) = Var (\hat{τ}) + \frac{1}{n (n - 1)} \sum_{i = 1}^{n} (τ_{i} - τ)^{2} \geq Var (\hat{τ}) .$

类似其他实验, 我们可以得到 $\frac{\hat{τ} - τ}{\sqrt{Var (\hat{τ})}} \overset{d}{\to} N (0, 1) .$ 因此 Wald 置信区间 $\hat{τ} \pm z_{1 - \frac{α}{2}} \sqrt{\hat{V}}$ 有至少 $1 - α$ 的概率覆盖 $τ$ .

命题

$\hat{τ}$ , $\hat{V}$ 分别等于 $({\hat{τ}}_{1}, \dots, {\hat{τ}}_{n})^{T}$ 对截距进行 OLS 得到的估计量和方差估计量.

4 协变量调整

有时候我们的配对并不完美, 或者我们有其他的协变量, 在配对的时候没有考虑. 此时我们可以调整协变量, 来更好提升估计效率. 假设每一个 $(i, j)$ 有协变量 $X_{i j}$ . 类似 CRE 的讨论, 我们可以有 FRT 和回归调整.

4.1 FRT

类似伪结果策略, 我们可以基于将结果对协变量拟合后的残差来构建检验量(在 $H_{0 F}$ 下这些残差固定不变). 例如, 用 $Y_{i j}$ 对 $X_{i j}$ 进行 OLS 得到 ${\hat{e}}_{i j}$ , 然后将它作为观测结果, 构建检验量.
类似模型结果策略, 我们也可以将某种系数作为检验量.

4.2 回归调整

现在我们关注估计 $τ$ . 计算配对内的差值 ${\hat{τ}}_{X, i}$ , 以及他们的平均值 ${\hat{τ}}_{X}$ . 可以得到 $\begin{aligned} E ({\hat{τ}}_{X, i}) = 0, E ({\hat{τ}}_{X}) = 0, \\ (4.1) & Cov ({\hat{τ}}_{X}) = \frac{1}{n^{2}} \sum_{i = 1}^{n} {\hat{τ}}_{X, i} {\hat{τ}}_{X, i}^{T} . \end{aligned}$ 所以在实际中, 除非所有 ${\hat{τ}}_{X, i}$ 都为 $0$ , 不然 $Cov ({\hat{τ}}_{X}) \neq 0$ . 如果我们的采样 $(Z_{1}, \dots, Z_{n})$ 非常不幸, 那可能 ${\hat{τ}}_{X}$ 离 $0$ 很远. 类似 2.4 重随机化回归调整, 可以通过调整协变量的不平衡来提升估计效率. 考虑 $\hat{τ} (γ) = \hat{τ} - γ^{T} {\hat{τ}}_{X},$ 它对任何固定的 $γ$ 都有均值 $0$ . 选取 $γ$ 来最小化 $\hat{τ} (γ)$ 的方差: $Var (\hat{τ} (γ)) = Var (\hat{τ}) + γ^{T} Cov ({\hat{τ}}_{X}) γ - 2 γ^{T} Cov ({\hat{τ}}_{X}, \hat{τ}),$ 它的最小值点为 $\tilde{γ} = Cov ({\hat{τ}}_{X})^{- 1} Cov ({\hat{τ}}_{X}, \hat{τ}) .$
将 (4.1) 改写为 $Cov ({\hat{τ}}_{X}) = \frac{1}{n^{2}} \sum_{i = 1}^{n} | {\hat{τ}}_{X, i} | | {\hat{τ}}_{X, i} |^{T},$ 这里 $| \cdot |$ 对向量的每个分量取绝对值. 因此 $Cov ({\hat{τ}}_{X})$ 固定且已知, 但 $Cov ({\hat{τ}}_{X}, \hat{τ})$ 依赖未知的潜在结果.
幸运的是, 我们可以得到一个它的无偏估计:

定理 2

$Cov ({\hat{τ}}_{X}, \hat{τ})$ 的一个无偏估计是 $\hat{θ} = \frac{1}{n (n - 1)} \sum_{i = 1}^{n} ({\hat{τ}}_{X, i} - {\hat{τ}}_{X}) ({\hat{τ}}_{i} - \hat{τ}) .$

它的证明和之前的定理1 相似.
因此, 我们可以估计 $\tilde{γ}$ 为 $\begin{aligned} \hat{γ} & = {(\frac{1}{n^{2}} \sum_{i = 1}^{n} {\hat{τ}}_{X, i} {\hat{τ}}_{X, i}^{T})}^{- 1} [\frac{1}{n (n - 1)} \sum_{i = 1}^{n} ({\hat{τ}}_{X, i} - {\hat{τ}}_{X}) ({\hat{τ}}_{i} - \hat{τ})] \\ \approx {(\sum_{i = 1}^{n} ({\hat{τ}}_{X, i} - {\hat{τ}}_{X}) ({\hat{τ}}_{X, i} - {\hat{τ}}_{X})^{T})}^{- 1} \sum_{i = 1}^{n} ({\hat{τ}}_{X, i} - {\hat{τ}}_{X}) ({\hat{τ}}_{i} - \hat{τ}), \end{aligned}$
这近似是 ${\hat{τ}}_{i}$ 在 ${\hat{τ}}_{X, i}$ 上 OLS 后 ${\hat{τ}}_{X, i}$ 上的系数. 最后的估计量为 ${\hat{τ}}_{adj} = \hat{τ} (\hat{γ}) = \hat{τ} - {\hat{γ}}^{T} {\hat{τ}}_{X},$ 根据 OLS 的性质, 这就是 ${\hat{τ}}_{i}$ 在 ${\hat{τ}}_{X, i}$ 上 OLS 的截距. 则它的一个方差保守估计量是 $\begin{aligned} {\hat{V}}_{adj} & = \hat{V} + {\hat{γ}}^{T} Cov ({\hat{τ}}_{X}) \hat{γ} - 2 {\hat{γ}}^{T} \hat{θ} \\ = \hat{V} - {\hat{θ}}^{T} Cov ({\hat{τ}}_{X})^{- 1} \hat{θ} . \end{aligned}$

命题

在 MPE 下, ${\hat{τ}}_{adj}, {\hat{V}}_{adj}$ 可以方便地进行近似: 将 ${\hat{τ}}_{i}$ 对一个全 $1$ 向量及 ${\hat{τ}}_{X, i}$ 进行 OLS 拟合, 取截距和相关方差估计量.

一般的配对实验

现在假设我们有 $n$ 个配对集合, 每个集合下有 $1 + M_{i}$ 个单元, 因此总共有 $N = n + \sum_{i = 1}^{n} M_{i}$ 个单元. 用 $i j$ 表示单元, $i = 1, \dots, n$ , $j = 1, \dots, M_{i} + 1$ . 潜在输出为 $Y_{i j} (1), Y_{i j} (0)$ .
在集合 $i$ 下, 随机选一个单元接受实验, 剩下 $M_{i}$ 个作为对照组. 这样的设置也是 SRE 的特别案例, 有 $n$ 个大小为 $1 + M_{i}$ 的分层. 则 $Y_{i j} = Z_{i j} Y_{i j} (1) + (1 - Z_{i j}) Y_{i j} (0) .$ 平均因果效应 $τ_{i} = \frac{1}{M_{i} + 1} \sum_{j = 1}^{1 + M_{i}} {Y_{i j} (1) - Y_{i j} (0)} .$ 因为这是 SRE, 我们有无偏估计 ${\hat{τ}}_{i} = \sum_{j = 1}^{M_{i} + 1} Z_{i j} Y_{i j} - \frac{1}{M_{i}} \sum_{j = 1}^{M_{i} + 1} (1 - Z_{i j}) Y_{i j} .$

FRT

我们依然可以有如下零假设 $H_{0 F} : Y_{i j} (1) = Y_{i j} (0), \forall i = 1, \dots, n, j = 1, \dots, M_{i} + 1.$
所以我们可以用之前 SRE 中的那些检验统计量. 此外我们在下面介绍一些特供的.

层内因果效应均值的估计

$τ = \frac{1}{n} \sum_{i = 1}^{n} τ_{i}$ 有无偏估计 $\hat{τ} = \frac{1}{n} \sum_{i = 1}^{n} {\hat{τ}}_{i}$ . 有趣的是, 我们可以证明定理1 对于一般的配对实验成立, 同样其他 MPE 的结论也是. 特别地, 我们可以用 ${\hat{τ}}_{i}$ 对截距的 OLS 拟合来得到 $τ$ 的点估计和方差估计. 在协变量下, 用 ${\hat{τ}}_{i}$ 在截距和 ${\hat{τ}}_{X, i}$ 的 OLS 拟合, 这里 ${\hat{τ}}_{X, i} = \sum_{j = 1}^{M_{i} + 1} Z_{i j} X_{i j} - \frac{1}{M_{i}} \sum_{j = 1}^{M_{i} + 1} (1 - Z_{i j}) X_{i j}$ 是 $i$ 下对应的协变量均值之差.

一个更一般的因果目标参数

注意到平均的因果效应应该是 $τ^{'} = \frac{1}{N} \sum_{i = 1}^{n} \sum_{j = 1}^{1 + M_{i}} {Y_{i j} (1) - Y_{i j} (0)} = \sum_{i = 1}^{n} \frac{1 + M_{i}}{N} τ_{i},$ 而非上面的 $τ$ . 我们考虑加权的因果效应 $τ_{w} = \sum_{i = 1}^{n} w_{i} τ_{i}, \sum_{i = 1}^{n} w_{i} = 1.$ 这样 $τ, τ^{'}$ 都是它的特例. 我们容易得到无偏估计和方差 ${\hat{τ}}_{w} = \sum_{i = 1}^{n} w_{i} {\hat{τ}}_{i}, Var ({\hat{τ}}_{w}) = \sum_{i = 1}^{n} w_{i}^{2} Var ({\hat{τ}}_{i}) .$
但是估计方差比较困难, 因为这里的 ${\hat{τ}}_{i}$ 都是独立的, 没有重复观测值. 在这里直接给出估计量 ${\hat{V}}_{w} = \sum_{i = 1}^{n} c_{i} ({\hat{τ}}_{i} - {\hat{τ}}_{w})^{2}, c_{i} = \frac{\frac{w_{i}^{2}}{1 - 2 w_{i}}}{1 + \sum_{i = 1}^{n} \frac{w_{i}^{2}}{1 - 2 w_{i}}} .$ 我们大致检查一下, 在 MPE 下, $M_{i} = 1, w_{i} = \frac{1}{n}$ , 因此 $c_{i} = \frac{1}{n (n - 1)}$ .
方便起见, 我们认为 $w_{i} < \frac{1}{2}, \forall i$ (也即没有集合占据了一大半的单元). 下面给出定理 1 的推广

定理 3

$E ({\hat{V}}_{w}) - Var ({\hat{τ}}_{w}) = \sum_{i = 1}^{n} c_{i} (τ_{i} - τ_{w})^{2} \geq Var ({\hat{τ}}_{w}) \geq 0. $ $ 等号成立当且仅当 $ τ_{i} $ 都为常数 .$